查看原文
其他

一个求证了三次才确定概念的数据分析案例!

xiaoyi 小一的学习笔记 2023-01-01

大家好,我是小一

今天的文章又是一波三折,差点没产出来

事情是这样的:这次遇到的数据集里面,有一个概念,虽然它不影响整体的分析结果,但是抱着谨慎的态度,前前后后一共还是求证了三次,最终才得以确认,具体是啥后面文中会提到。

先来说一下数据集:来源于全球手机基站开放数据库,网址是:https://alpercinar.com/open-cell-id/

数据涉及的字段有 14 个,表示基站的位置特征和测量者的上报信息等。

目的也比较开放:例如分析全球手机基站的空间分布特征、例如本文中的某个城市基站分布等。你可以随意发挥

ok,开始正文...


数据准备

全部数据集表示全球手机基站数据,大概有 3GB 左右,数据稍大,高于16GB 内存的电脑可以尝试一次性读入,否则建议分块

提供一段分段读取的参考代码:

# 分块读取,每次读取20W行
df_iterator = pd.read_csv(filepath, chunksize=200000)
df_data = pd.DataFrame()
for chunk in df_iterator:
    # 在此可以对每一个块的数据进行处理,减少计算量
 # 代码已忽略
    df_data = df_data.append(chunk)

df_data

获取到数据大概如下:

一共 43285363 条数据,14 个特征,分别表示基站的位置特征和测量者的上报信息等

字段特征代表的意思如下:

因为本文的思路主要是针对 中国的基站数据进行分析,所以需要从中进行筛选。

而字段 MCC 表示的是移动国家号码,由3位数字组成,唯一地识别移动用户所属的国家。例如:中国是 460。

常见的像中国移动就是 46000、46002,中国联通是 46001,中国电信是 46003 等等,还有很多没有列举出来,贴一张图大家自己看:

筛选出中国的基站数据:

# 筛选出中国的基站数据
df_data_China = df_data[df_data['mcc'] == 460]

一共 877417 条数据,也是我们今天分析的原始数据


开始分析

数据字段比较有限,因为不了解测量者上报数据的原理,所以有用的信息只有 lat、lon和 radio,对应的是基站的经纬度和网络制式

对于网络制式,在数据中有这么几个值:

其中 2G 基站的数量最多,其次是 4G,而 5G 基站数量为0,CDMA是18个

有一个很重要的题外话,5G 在我国已经商用了,这个数据存在很大的缺失

所以对于后面的分析结果大家抱有谨慎的心态去看

让我求证了三次的也正是在这个 CDMA 上,不敢兴趣的可以跳过下面这一小段,主要目的是为了说明:在数据分析中,对于数据字段的理解一定要准确

  • 首先,是 CDMA 作为我国电信在2G上的使用标准,区别于 2G 和 3G,可以作为 2.5G
  • 其次,发现在国际上,对于全球网络制式来说,CDMA 更多的是表示区别于2G的一个3G标准,是可以作为3G UMTS 的一个子集,所以归为 3G
  • 最后,在求证同事之后,他给我看了两张图,最终确定 CDMA 归为 2G

有一本名为《WCDMA关键技术(第二版)》的书,算是业界比较知名的一本书,书上是这样写的:

所以,还是按照书上的,将 CDMA 归为 2G 时代。

因为 CDMA 的样本数确实很少,在本次项目中当做异常值处理也行,不会影响啥。


全国基站分布

首先先来看全国的 2G、3G、4G 基站的分布

可以看到 2G 网络的覆盖面积较广,基本上有 3、4G 网络覆盖的地方就有 2G 基站,另外在左上角的新疆地区,2G和3G插花出现,以弥补网络覆盖不足。

特别是发展到了现在已经是 5G 时代,2G 更多的是用来承载语音业务(个别城市除外),对应的用户语音的最大需求就是:覆盖


当你把这张图横着看的时候,可以发现各个区域不同网络的覆盖程度:

可以看到 2G 网络的在中部地区覆盖比较多,长三角地区的 4G 覆盖更占优势,珠三角地区的 3G 覆盖更好些。

海南是个例外,2G 网络覆盖大大高于3G、4G

此处应该有一段合理的怀疑,需要进一步验证数据源头是否准确、及时


对应的全国的 234G 基站覆盖情况可以分别看一下具体地理分布:

2G:

覆盖较广,属于最早期的网络,目前有部分城市已经开始弃用2G,开始用3G承载语音业务

3G:

有几个中心区域值得关注,珠三角、长三角、京津地区

4G:

4G目前算是主流,毕竟5G只是在部分城市覆盖比较好

中国的5G建设在全球都是处于领先地位,数据显示中国没有5G基站


具体城市分析

上面是中国整体的一个基站地理分析,接下来单独看一下深圳的分布情况,想必应该会有不一样的感官

先来看深圳的 2、3、4G分布情况:

黄色的 2G 基站仍旧占据多数,在各大道路(高速、高铁)等都有覆盖,红色的 3G 基站数量略少,黑色的 4G 基站在景区(右下角西涌海岸最明显)等位置都做了覆盖增强,将原来 2G 没覆盖到的地方做了一些增补

最明显的感受就是:在有些区域,可能你打电话不太行,但是上网却是没啥问题的。

图中有少许点是打在海里面,可能是经纬度需要转换,也有可能是数据源有问题


将2G、3G基站的分布做一个对比分析:

基本上是有 3G 的地方就有 2G,部分区域用 3G 进行覆盖增强


将 3G、4G基站的分布做一个对比分析:

深圳的 4G 覆盖其实整体还行,从图中可以看出,相比 3G 基站的分布已经密集了很多,特别是在道路上已经加强了很多

如果你是在深圳开往其他省的高铁或者大巴上,可能出了深圳之后,上网会突然变差,刷视频、玩游戏什么的可能都会变卡

另外,对于景区,4G 也新增了很多基站,只要你不是去城中村、高楼那种密集区域,想必在深圳的网络体验都还行


最后,看一下 2G、4G的基站分布情况:

整体来说,还是 2G 会多很多

这个就更让我怀疑数据了,在现在的深圳不太会是这个结果。

盲猜数据不是最新的,最起码不是近一年的


总结

部分数据有问题,在前面都已经说过,所以本文的结论大家稍微带点怀疑的眼光去看

对于中国的整体基站分布,特别是对于某个城市的的分析,还需要结合这个城市的具体情况,例如:新疆地域辽阔、深圳高楼密集城中村较多等,对于具体的网络建设有很大的影响

唯一可以肯定的是:时代的脚步一直在前进,2G时代也终究会被3G取代,4G、5G 甚至到后面的 6G 等,网络的更新终究会随着时代的前进而滚滚向前

就像现在已经很少有人用 2G 上网,打电话也有很多用户使用 VoLTE了。



往期文章


可能我也没有想到,我能把写文章坚持下来

爬取全国40城5000+地铁站点数据!

一个数据分析的真实失败案例

6000+的实战数据探索分析

数据清洗最基础的10个问题!


我是小一,坚持向暮光所走的人,终将成为耀眼的存在!

期待你的 三连!我们下节见

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存